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jj 要 : [目的 /意义 ] 探 索 科研 命名 实体 及 其 关系 的 识别 与 抽取 ,提升 其 在 长 句 等 复杂 情况 下 的 识别 效果 ,为 进一步 的 应 
用 提供 参考 与 借鉴 。[ 方 法 /过 程 ] 以 依存 句法 特征 分 析 为 基础 ,提出 一 种 科研 命名 实体 关系 抽取 方法 ,过 程 包括 : 
(DM J| Standford Tagger 工具 对 目标 文本 进行 词性 标注 ;@ 基 于 标注 结果 ,围绕 核心 谓词 和 SAO 结构 ,将 目标 文本 
分 割 为 结构 规范 的 语义 片段 ;加 通过 依存 句法 分 析 , 找 出 与 核心 谓词 语义 相关 的 主语 和 宾语 ,构成 (实体 ,关系 , 实 
体 ) 三 元 组 。[ 结果 /结论 ] 与 0llie、Reverb 等 主流 算法 进行 的 对 比 测试 表明 ,该 方法 可 以 有 效 提升 科研 命名 实体 
识别 的 准确 性 。 
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有 了 很 大 的 提高 。H. Li 等 中 提出 了 一 种 基于 位 置 语 
l 义 特 征 的 实体 关系 抽取 方法 ,利用 位 置 特征 的 可 计算 

天 数据 时 代 , 如 何 从 海量 的 数据 中 获取 有 用 信息 “| 性 和 可 操作 性 ,以 及 语义 特征 的 可 理解 性 和 可 实现 性 ， 
自然 语言 处 理 和 数据 挖掘 中 的 难点 和 热点 问题 。 | 整合 了 词语 位 置 的 信息 增益 与 基于 HowNet 的 语义 计 
任 注 自然 语言 处 理 的 基础 之 一 ,实体 及 实体 关系 抽取 算 结果 。 实 验 结果 表明 ,结合 位 置 和 语义 特征 的 关系 
浪 泣 法 ,句法 ,语义 等 分 析 处 理 提供 了 重要 技术 支撑 ， 抽取 方法 优 于 单独 使 用 位 置 或 语义 特征 的 方法 。 奚 沽 
广泛 用 于 信息 抽取 、 信 息 检索 ,信息 推荐 .分 类 聚 类 、 自 | 等 也 是 通过 在 各 种 词法 .语法 .语义 的 基本 特征 内 部 
areis 自动 问答 .知识 发 现 . 情 感 分 析 .知识 库 构建 等 及 特征 之 间 进行 有 效 的 组 合 ,形成 多 种 组 合 特征 来 提 


众 岁 自然 语言 处 理 任务 中 。 高 实体 关系 的 抽取 性 能 和 效果 。 
三 针对 实体 关系 复杂 的 情况 , 徐 芬 等 ”提出 基于 特 以 上 研究 表明 ,融合 句法 依存 和 词性 标注 信息 能 


征 合 量 的 实体 及 实体 关系 抽取 方法 ,融合 了 词 .词性 标 够 有 效 地 提高 实体 关系 抽取 的 性 能 。 常 见 的 抽取 工具 
注 , 实 体 属性 ,实体 间 关 系 等 特征 信息 ,他 们 的 研究 表 中 ,TextRunner'" , Reverb ^ fil R2A2 利用 句法 分 析 算 
明 多 个 层次 的 语言 学 特征 能 够 有 效 提升 实体 关系 抽取 | 法 实现 信息 抽取 ,而 WOE"" ,KrakeN'"] , Ollie ^ 等 则 
的 效果 。N. Kambhatla 融合 了 实体 单词 .实体 类 型 、 | 进一步 融合 了 句法 依存 分 析 算 法 ,抽取 效果 更 好 。 这 
实体 引用 方式 、 重 全、 依存 树 和 解析 树 等 特征 信息 , 基 | 些 工 具 设 计 思 路 名 是 通过 对 文本 中 表达 关系 短语 的 模 
于 最 大 炉 模型 实现 实体 及 关系 抽取 。 郭 喜 路 等 "在 句 。 式 进行 仔细 的 语言 分 析 后 ,形成 模式 集 , 然 后 再 结合 正 
法 分 析 的 基础 上 ,提出 句法 与 语义 特征 融合 的 实体 关 | 则 表达 式 和 模式 匹配 算法 ,实现 高 精度 的 实体 及 关系 
系 抽取 方法 ,该 方法 主要 融合 了 句法 依存 关系 实体 与 | 抽取 "”。 近 年 来 ,基于 深度 学 习 的 实体 关系 抽取 技术 
核心 谓词 的 距离 .语义 角色 标注 等 信息 ,可 以 有 效 识别 | 的 研究 "也 取得 了 相应 的 成 果 。 唐 敏 等 "通过 增加 
实体 间 的 多 种 关系 。 甘 丽 新 等 “在 此 基础 上 融入 了 依 ”” 实体 注意 力 机 制 的 深度 学 习 实 体 关系 抽取 模型 来 辨别 
存 句 法 组 合 特征 及 动词 依赖 ,使 识别 的 关系 类 型 种 类 | 语义 关系 ;Y. Lin 等 "提出 了 一 种 在 纯 文本 中 进行 关 
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系 抽取 的 方法 ,在 引入 多 语言 的 神经 关系 抽取 框架 的 


(3) 整合 主语 核心 谓词 和 宾语 构成 [实体 ,关系 ， 


基础 上 也 加 入 了 注意 机 制 , 有 效 地 控制 了 噪声 句子 的 
影响 。 

本 文 提 出 一 种 科研 命名 实体 关系 抽取 方法 ,采用 
词性 标注 和 句法 依存 相 融 合 的 方式 直接 分 析 句 子 , 获 
得 最 终 的 实体 关系 三 元 组 。 相 较 于 上 文中 提 到 的 通过 
正则 表达 式 及 模式 匹配 提取 实体 关系 三 元 组 的 方式 ， 
该 方法 在 如 下 两 个 方面 进行 了 改进 :中 长 句 处 理 方面 ， 
围绕 核心 谓词 和 SAO 结构 ,将 长 句 分 割 为 结构 规范 的 
语义 片段 ,以 利于 下 一 步 的 实体 对 的 准确 抽取 与 识别 ; 
G@ 科 研 命名 实体 关系 识别 方面 ,通过 对 核心 谓词 与 其 
辅助 词 的 依存 关系 分 析 建 模 ,对 科研 命名 实体 识别 模 
型 进行 了 优化 ,有 效 提升 识别 准确 性 ,如 “To efficiently 


handle high-dimensional data, we develop two determinis- 


ží 


tic alleorithms that approximate the covariance matrices. " 
名 手中 ,Ollie 等 工具 只 能 识别 出 围绕 核心 动词 “devel- 
Nk 实体 关系 (we; develop; two deterministic algo- 
rims) 。 从 句子 本 身 含 义 来 看 ,科研 命名 实体 候选 三 
元 继 的 结果 更 希望 是 “ developed A to handle B” 中 科研 
AKIE A Ñ B AJ X Z&, Hl (two deterministic algo- 
rilluns; be developed to; high-dimensional data) 。 本 文 
通奸 增加 动词 “develop” 8 Bri] to" 的 句法 依存 分 析 
SER, KAT AROPE PERRIN Dc THO 
ATE. 


实体 关系 抽取 算法 


E 算法 设计 思路 
OO 词性 标注 和 依存 句法 特征 的 实体 关系 抽取 算法 整 
体 设 计 思路 如 图 1 所 示 : 


基于 SAO 结构 的 名 子 分 害 


正则 表达 匹配 


依存 句法 分 忆 


核心 谓词 抽取 


图 1 实体 及 关系 抽取 算法 架构 设计 
算法 原理 如 下 : 


(1) 以 SAO 结构 作为 基本 句子 结构 ,进行 长 句 切 
市 化 简 处 理 。 首 先 利用 Standford NLP 工具 ,对 输入 文 
本 进行 词性 标注 ,然后 依据 SAO 基本 结构 单元 ,通过 
句法 分 析 , 找 到 核心 谓词 ,并 围绕 核心 谓词 和 SAO 结 
构 单 元 ,将 长 句 分 割 为 更 为 细 粒 度 的 语义 结构 单元 。 

(2) 通过 依存 句法 特征 分 析 , 建 模 , 找 出 与 核心 谓 
词语 义 相关 的 主语 和 宾语 。 


实体 ] 三 元 组 。 
2.2 基于 SAO 结构 的 长 句 切割 

SAO( Subject-Action-Object) 结构 理论 , 源 自 于 创造 
性 问题 解决 理论 (Theory of Inventive Problem Solving, 
TIPS) ,用 来 表示 解决 问题 方法 的 基本 函数 单元 o 
从 句子 语法 结构 看 ,SAO 结构 可 以 对 应 句子 中 的 SVO 
(Subject-Verb-Object) 结构 ;从 语义 网 RDF 数据 模型 
看 ,SAO 结构 可 以 对 应 三 元 组 (triple) 中 的 SPO ( Sub- 
ject-Predication-Object) 结 构 。SAO 结构 的 引入 可 以 有 
效 揭示 组 件 信息 和 组 件 间 的 语义 关系 ,进而 形成 一 
个 完整 的 语义 理解 。 近 年 来 ,SAO 结构 广泛 应 用 于 技 
术 路 线 分 析 ”技术 演化 ”等 语义 分 析 领 域 。 相 较 基 
于 句子 的 分 析 ,SAO 结构 提供 了 一 种 更 为 细 粒 度 的 语 
义 结构 ,有 助 于 更 为 深入 、 更 为 准确 地 挖掘 和 理解 文本 
中 蕴含 的 关联 信息 。 

针对 长 句 的 实体 抽取 问题 , A. Gabor ”依据 规范 
结构 (Canonically Structured ) , 先 将 长 句 分 解 为 一 组 短 
名 ,然后 以 自然 逻辑 推理 方式 从 短 句 中 确定 候选 三 元 
组 。L. Coro ^' 围绕 7 个 基本 句 型 将 长 句 分 解 为 一 组 
短 句 ,再 通过 依存 关系 分 析 从 短 句 中 确定 候选 三 元 组 ， 
提升 抽取 效果 。 人 研究 发 现 ,无 论 规范 结构 或 是 基本 句 
型 都 包含 核心 谓词 部 分 ,因此 ,本 文 以 核心 谓词 为 单 
元 ,以 SAO 结构 为 基本 结构 单元 和 校 验 模型 将 长 句 分 
制 为 更 细 粒 度 的 语义 结构 ,是 合理 的 ,有 利于 下 一 步 的 
规范 语义 结构 中 实体 的 精准 抽取 。 本 文 使 用 长 句 分 割 
方式 ,而 没有 使 用 长 句 分 解 短 句 方式 ,主要 有 如 下 两 个 
方面 的 考虑 :中 实体 识别 过 程 中 的 句法 依存 分 析 ,可 以 
直接 利用 长 句 的 句法 依存 分 析 结 果 ,减少 中 间 过 程 , 减 
小 错误 率 ;@ 满 足 SAO 结构 的 基础 上 ,尽量 保留 原名 
的 信息 ,减少 信息 丢失 。 

基于 SAO 结构 的 长 句 切割 的 实现 过 程 包括 如 下 
四 步 : 

(1) 利 用 Standford Tagger 工具 对 长 句 进行 词性 标 
DE ,标注 结果 中 ,可 以 看 出 名 词 以 ”"NP "为 起 始 标识 ,而 
动词 以 ”VP” 为 起 始 标识 ,规律 明显 ; 

(2) 对 词性 标注 结果 进行 预 处 理 , 主要 是 对 不 定 
式 等 非 谓语 动词 进行 特征 标识 ,以 区 别 于 核心 动词 ， 
其 与 核心 谓词 的 词性 标注 形式 近似 , 丝 以 “VP” 为 起 
始 标 识 , 如 , 动 名 词 “ doing” 被 标识 为 “(VP (VBG do- 
ing)”, 动 词 不 定式 被 标识 为 “(VP (TO to)”。 通 过 预 
处 理 , 减 少 噪音 ,提升 准确 度 ; 

(3) 以 "SBAR”( 从 名 标识 符号 ) “， 及 “CC” (并 
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列 连接 标识 符号 ) 等 符号 为 特征 标识 ,进行 长 句 的 预 分 
割 处 理 ; 
(4) 基 于 SAO 结构 ,对 预 分 割 结果 进行 验证 与 合 
并 ,保证 每 个 分 段 中 只 有 一 个 核心 谓词 ,并 输出 最 终 的 
分 割 结果 。 
如 句子 “Then, two models of damping in a tall 


building, the artificial neural network ( ANN) model and 
the auto-regressive ( AR) model, are established by em- 
ploying ANN and AR methods, and used to predict the 
damping values at high amplitude level, which are difficult 
to obtain form field measurements. ”( 来 自 论文 题名 为 


“ Damping in buildings: its neural network model and AR 


nsubjpass 


-acl 一 、 


m nmod:in-. 
Dark 一 
YY 


nummod., /^ 
Y 


Y Y 


B-NP I-NP I-NP I-NP I-NP 
CD NNS IN VBG NN 


图 2 


实体 抽取 
= 依据 词性 标注 结果 和 基础 句 型 ,围绕 谓词 整理 实 
取 规 则 ,并 实现 实体 抽取 。 实 现 过 程 主要 包含 如 
下 跨 个 步骤 :@ 利 用 模式 匹配 工具 (Tregex) P! ,通过 执 
行 模 式 “NP ! < < NP" 对 最 小 NP 块 进行 识别 。 在 语 
法 坚 中 最 小 的 NP 块 (noun phrase , 名词 词组 ) ,被 认为 
是 语义 处 理 的 最 小 单元 。 人 处 理 结果 :“two models of 
damping in a tall building" “ ANN and AR methods" “ the 
damping values" 等 NP 块 被 分 别 当 作 一 个 独立 的 块 。 
FHN“ A established by B^, 匹配 抽取 实体 对 象 
A 和 B, 第 一 个 语义 片段 的 候选 三 元 组 结果 为 : (two 
models of damping in a tall building; be established by; 
ANN and AR methods ) ,实体 类 型 分 别 为 “question” 和 
“method” ; 利用 规则 “A used to B", 匹配 抽取 实体 对 
象 A 和 B, 第 二 语义 片段 的 候选 三 元 组 结果 为 : (two 
models of damping in a tall building; be used to; the 
damping values) , 而 实体 类 型 分 别 为 “method” 和 “ques- 
tion" , 
2.3.2. 实体 关系 识别 

实体 关系 的 抽取 ,主要 是 对 实体 对 象 之 间 的 整体 
部 分 组 成 . 施 事 、 因 果 关 系 进行 的 识别 。 本 文 借鉴 将 


A NS auxpass —N / 


model" 的 摘要 ) 基于 本 文 上 述 方法 ,初始 分 段 为 8 Bt, 
验证 合并 后 ,结果 为 3 段 , 中 间 一 段 为 "and used to pre- 
dict the damping values at high amplitude level" 。 
2.3 依存 句法 特征 分 析 的 实体 及 其 关系 抽取 

根据 Standford TypedDependency 依赖 关系 函数 ,对 
基于 SAO 结构 的 语义 片段 进行 计算 , 找 出 核心 谓词 及 
与 其 语义 相关 的 主语 和 宾语 。 以 上 述 例句 的 前 两 个 片 
段 为 例 , 对 科研 命名 实体 关系 抽取 流程 进行 说 明 ,主要 
包括 :实体 抽取 实体 关系 识别 .依存 句法 特征 分 析 等 
过 程 ,其 所 对 应 的 依赖 分 析 、 块 分 析 、 词 性 标注 示例 如 
2 所 示 : 


conj:an xcomp 一 、 dobj- ——. 
i mark / a amod x 
Y Y Y [4 


||. and used to predict the damping values ... 


I-VP B-TO B-VP B-NP I-NP INP 

CC VBN TO VB DT JJ NNS 
dobj 一 一 一 

advcl 一 、 compound 一 > zx: compound 


|/ 


mak \/ £ conj:and/ A 
Y KS Y 


. two models of damping ... building .… , are established by employing ANN and AR methods 
B-VP IVP 
VBP VBN 


B-PP B-VP  B-NP LNP INP I-NP 
PP VBG  NNP CC NNP NNS 


基于 Standford nip 工具 的 句子 依赖 分 析 、 块 分 析 、 词 性 标注 结果 示例 


婷 ” 对 学 术 文 献 中 常见 实体 关系 类 型 的 归纳 ,利用 
WordNet ”工具 对 主要 关系 类 型 中 的 具有 术语 类 别 依 
赖 的 动词 (谓词 ) 进行 补充 和 扩展 。 结 合 科技 文献 特 
点 ,在 SVOA 模型 ”中 增加 辅助 词 (“to”“for” “with” 
“as”“in” 等 ) 的 依存 规则 和 抽取 规则 ,提升 科研 命名 实 
体 的 识别 能 力 ,如 :use Method for Question 等 。 
2.3.3 基于 句法 依存 分 析 的 精准 识别 

值得 注意 的 是 ,第 二 个 语义 片段 的 实体 对 象 抽取 
过 程 中 ,其 本 身 并 不 存在 实体 对 象 A ,本 文 利用 句法 依 
存 关系 分 析 与 关系 链 计算 进行 关联 识别 。 从 图 2 中 可 
以 看 出 “used- > established- > models” 的 依赖 关系 
链 。 依 赖 关系 识别 模式 为 :“ (|| = object > conj: and 
{lemma:used| = |] ) > nsubjpass | | = subject”, 通 过 
模式 匹配 找到 “used” 的 关联 实体 对 象 A 为 “two models 
of damping in a tall building”。 同 理 , 基 于 依赖 关系 链 
分 析 还 可 以 解决 实体 对 象 的 共 指 ,识别 语义 相关 实体 ， 
实现 实体 聚 类 合并 等 。 

另 一 个 值得 注意 的 是 经 过 最 小 NP 块 合并 及 模式 
匹配 识别 后 ,得 到 的 实体 候选 三 元 组 中 实体 要 素 可 能 
包含 多 个 实体 ,还 需要 依据 临近 原则 或 句法 依存 分 析 


结果 查找 其 对 应 的 合理 的 实体 关系 。 例 如 :“ Feed-For- 
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ward Back-Propagation Artificial Neural Network ( FFBP- 
ANN) trained with Levenberg-Marquardt algorithm is used 
for estimation of different performance parameters of CM- 
PA. ”句子 中 ,针对 “estimation of different performance 
parameters of CMPA "问题 ,初始 抽取 到 的 对 应 的 方法 实 
体 为 “Feed-Forward Back-Propagation Artificial Neural 
Network ( FFBP-ANN) trained with Levenberg-Marquardt 
algorithm" , {H “ Feed-Forward Back-Propagation Artificial 
Neural Network ( FFBP-ANN ) trained with Levenberg- 
Marquardt algorithm ”包含 了 两 个 实体 “Feed-Forward 
Back-Propagation Artificial Neural Network ”和 “ Leven- 
berg-Marquardt algorithm”, 根 据 依存 关系 链 , 最 终 的 方 
法 实体 应 是 “Feed-Forward Back-Propagation Artificial 
Neural Network ”而 不 是 “Levenberg-Marquardt algo- 
rit 芒 ”。 其 依存 关系 计算 的 部 分 结果 如 下 :[…, nsubj- 
page used-14, Network-5 ) appos ( Network-5, FFBP- 
ANN) , acl ( Network-5, trained-9) ，… ，nmod : with 
(irüined-9 , algorithm-12 ) , auxpass ( used-14, is-13 ), 
roo ROOT-0 , used-14)…] 。 即 ,通过 依存 分 析 结果 可 
DH ,“root( ROOT.0，used-14) "说 明 句 子 的 核心 词 
Jj: used" ;"nsubjpass( used-14 , Network-5 ) " ji BH “ Net- 
wEB 是 "used" 的 主语 (“nsubjpass" 标 识 含义 为 被 动 的 
Ads) ; nmod:with( trained-9, algorithm-12 ) ”说 明 
" algorithm ”与 “trained” 通 过 “with” 组 成 复合 名 词 
(Bmod” 标 识 含义 为 复合 名 词 修饰 ) ;“acl( Network-5 ， 
bai 吕 4.9) "说明 复 合 名 词 修饰 “Network”。 为 了 在 后 续 
的 实体 及 关系 识别 过 程 中 复 用 这 个 分 析 结 果 , 本 文 将 
s Network" 和 “used ”的 依存 关系 链 定 义 为 “ner. dep_ 
nsubjpass_identifier( )”。 同 理 ,归纳 总 结核 心 谓词 与 辅 
助词 之 间 ` 共 指 词 之 间 的 依存 关系 链 , 为 常见 依存 关系 
链 建 模 ,形成 依存 关系 链 判 别 模型 ,实现 接口 复 用 以 及 
对 科研 命名 实体 的 精准 识别 。 


3 实证 研究 


3.1 实验 设计 和 实验 步骤 

本 文 从 微软 学 术 数 据 库 中 提取 Artificial Intelli- 
gence 期 刊 2016 年 发 表 的 被 引用 量 Top10 的 论文 的 文 
摘 , 作 为 实验 数据 。 使 用 Ollie-app-latest. jar, Reverb- 
latest. jar , Stanford-corenlp-3. 9. 2. jar, Stanford-tregex-3. 
9.2. jar 为 主要 开发 工具 ,JDK1.8 为 开发 环境 。 利 用 和 句 
法 标注 和 依存 关系 链 分 析 ,构造 科研 命名 实体 抽取 规 
则 模型 和 依存 关系 模型 ,对 科研 文本 中 的 重要 术语 及 
其 关系 进行 识别 和 揭示 。 然 后 ,通过 将 本 文 的 识别 算 


二 


法 同 Ollie ” , Reverb ”算法 及 人 工 标注 的 结果 进行 对 
比分 析 , 证 明文 本 提出 的 算法 在 科研 命名 实体 及 其 关 
系 识别 中 的 有 效 性 。 实 验 过 程 主要 包括 如 下 几 个 方 
面 : 

(1) 利 用 基础 的 自然 语言 处 理工 具 , 设 计 科 研 命 
名 实体 识别 算法 ,归纳 整理 常见 的 句法 模型 和 依存 关 
系 模型 ,构建 本 文 的 科研 命名 实体 识别 原型 系统 ; 

(2) 通 过 人 工 标注 实验 数据 中 的 重要 术语 、 实 体 
及 其 关系 ,作为 对 比 的 基准 数据 ; 

(3) 将 Ollie „Reverb 开放 信息 抽取 (Information Ex- 
traction; IE) 工 具 作 为 科研 命名 实体 识别 的 对 比 算法 ， 
获得 识别 结 
3.2 ”开放 信息 抽取 ( 亚 ) 工具 

Reverb”! 与 Ollie ”是 由 美国 华盛顿 大 学 推出 的 
开放 信息 抽取 工具 ,通过 识别 任意 句子 中 的 实体 关系 ， 
完成 实体 及 其 关系 的 提取 。Reverb 是 早期 作品 ,主要 
抽取 基于 动词 的 实体 关系 , 即 SAO 结构 中 ,通过 A 来 
Jek SA O, Ollie 是 Reverb 的 升级 版 本 ,在 关系 识别 
模式 和 上 下 文 信息 辅助 判别 等 方面 进行 了 较 大 改进 ， 
进而 推出 的 新 一 代 信 息 抽 取 工 具 。 

在 关系 识别 模式 方面 ,Ollie 加 入 了 以 名 词 .形容 
词 为 关联 介质 的 关系 判别 模式 。 如 :“ Microsoft co- 
founder Bill Gates spoke at...” 的 抽取 结果 为 (Bi 记 ll 
Gates ; be co-founder of; Microsoft) ,其 中 “co-founder” 即 
为 以 名 词 为 关联 介质 的 关系 判别 。 上 下 文 信息 辅助 判 
5177 ifii , Olie 使 用 属性 和 子 句 修饰 符 等 信息 , 提高 抽 
取 质 量 。 如 :“ Early astronomers believed that the earth is 
the center of the universe. ”的 抽取 结果 为 ( (the earth; 
be the center of; the universe ) , AttributedTo believe; 
Early astronomers ) ,属性 信息 说 明 结论 与 简单 抽取 的 信 
息 是 相反 的 。 如 : “Tf he wins five key states, Romney 
will be elected President. ”的 抽取 结果 为 (( Romney; 
will be elected; President) ClausalModifier if; he wins 
five key states) , 子 句 修饰 符 提供 了 更 多 的 信息 。 

3.3 ”实验 结果 分 析 

按照 实验 步骤 利用 本 文 提出 的 算法 人 工 标注 、 
Reverb „Ollie 算法 分 别 对 实验 数据 进行 处 理 , 并 分 为 两 
个 部 分 对 实验 结果 进行 分 析 : 一 是 对 整体 实验 进行 分 
析 , 二 是 结合 单 篇 文摘 实例 进行 分 析 。 

3.3.1 整体 实验 结果 分 析 

将 本 文 提 出 算法 的 识别 结果 同人 工 标注 的 基准 数 
据 和 Ollie/ Reverb 算法 识别 的 结果 进行 精确 匹配 和 近 
似 匹 配 。 精 确 匹 配 是 指 直接 和 基准 数据 进行 一 对 一 的 
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匹配 。 近 似 匹 配 是 指 基于 语义 相关 度 的 匹配 ,认为 与 
基准 数据 中 的 实体 词义 高 度 相近 的 术语 实体 也 可 以 被 
看 作 是 正确 识别 结果 。 例 如 , 表 2 中 ,人 工 标注 基准 实 
体 为 “learning algorithms”, 如 实验 算法 的 识别 结果 为 
" Conventional online learning algorithms”, 则 认为 是 正确 
识别 的 。 

在 识别 结果 评价 指标 的 选择 上 ,本 文采 用 准确 率 
和 召回 率 作为 实体 及 其 关系 识别 效果 的 评价 指标 , 准 
确 率 和 召回 率 公 式 分 别 为 : 

Precision =R, N R,/R, 公式 (1) 
Recall = R, NR,/R, 公式 (2) 

其 中 Pewxiaion 为 准确 率 指 标 , Recall 为 召回 率 指 
标 ,R, 为 基于 算法 抽取 的 实体 集合 中 的 实体 个 数 ,已 
六 基于 人 工 判别 核准 的 数据 集合 中 的 实体 个 数 ,Rn 
RM 大 示 抽取 结果 与 人 工 判别 结果 可 以 匹配 的 实体 个 
对 比 结果 如 表 1 所 示 : 
| X1 Olie Reverb 及 本 文 识别 算法 结果 对 比 


识别 方法 


指标 匹配 模式 
Ollie Reverb ”本 文 算法 

准确 率 近似 匹配 — 71.196 57.8% 76.6% 

精确 匹配 56.7% 48.2% 66.2% 

召回 率 近似 匹配 — 74.296 51.6% 63.4% 

精确 匹配 59.1% 43.0% 54.8% 

NERE ER 近似 匹配 58.7% 38.7% 78.0% 
IARA 精确 匹配 50.8% 32.396 70.0% 
召回 率 近似 匹配 — 71.296 46.2% 75.0% 

精确 匹配 61.5% 38.5% 67.3% 


-通过 对 比 结果 看 ,本 文 提出 的 算法 ,除了 在 实体 识 
别 方面 的 召回 率 较 低 之 外 ,在 实体 识别 的 准确 率 c 
关系 识别 的 准确 率 和 召回 率 上 , 比 Ollie 和 Reverb 均 有 
优势 ,近似 匹配 的 实体 识别 准确 率 达到 76. 6% ,近似 
匹配 的 实体 关系 识别 准确 率 达 到 78% , 召回 率 达 到 
75% 。 句 法 特征 的 依存 关系 分 析 与 建 模 在 命名 实体 识 
别 的 准确 度 上 起 到 了 关键 作用 。 

文章 对 科研 命名 实体 识别 算法 中 的 实体 识别 召回 
率 较 低 的 原因 ,进行 了 简单 分 析 :中 本 文 识别 算 法 本 质 
上 是 一 种 基于 规则 的 算法 ,面临 所 有 基于 规则 的 算法 
需要 面 对 的 问题 一 -算法 并 不 可 能 对 所 有 的 规则 进行 
9 3], QOllie 工具 中 包含 基于 动词 名词 .形容 词 为 关 
联 介质 的 关系 判别 与 识别 ,在 实体 识别 过 程 中 约束 限 
制 相 对 较 少 ,所 以 ,会 有 “we”“paper”“result” 等 没有 实 
际 意义 的 辅助 的 实体 ,抽取 到 的 相关 实体 对 也 相对 较 
多 ,导致 召回 率 较 高 ;@ 本 文 算法 增加 了 依存 关系 特征 


分 析 模 块 , 在 提升 准确 度 的 同时 也 在 一 定 程度 上 降低 
了 召回 率 。 
3.3.2. 单 篇 文摘 实例 分 析 

通过 整体 分 析 , 在 一 定 程度 上 证 明了 本 文 提出 的 
算法 的 有 效 性 。 下 面 对 实 验 数 据 中 具体 的 单 篇 文摘 实 
例 进 行 分 析 ,并 与 Ollie、Reverb 工具 识别 效果 进行 对 
EE ,进一步 证 明 本 文 算法 的 有 效 性 。 实 验 实例 标题 为 
“One-pass AUC optimization ”的 文摘 数据 ,部 分 识别 结 
果 见 表 2。 

相 较 Ollie „Reverb 算法 ,本 文 算法 优势 体现 在 : 

(1) 基于 动词 与 辅助 词组 合 模型 的 关系 识别 效 细 
较 好 ,如 原 句 :“To efficiently handle high-dimensional da- 


ta, we develop two deterministic algorithms that approxi- 


rin 


mate the covariance matrices. " Ollie/Reverb 识别 算法 只 
能 识别 基于 动词 “develop” 的 实体 关系 (we; develop; 
two deterministic algorithms) 。 本 文 算法 还 可 以 识别 出 
基于 “develop to” 组 合 模型 的 实体 关系 (two determinis- 
tic algorithms; be developed to; high-dimensional data) 。 
从 句子 本 身 含义 来 看 ,科研 文献 中 的 实体 及 其 关系 抽 
取 的 任务 目标 ,更 希望 是 “developed A to handle B” H 
的 科研 命名 实体 A 和 B, 表 2 中 的 粗 体 字 。 

当 出 现 多 个 辅助 词 时 ,如 :“Their friendship devel- 
oped through their shared interest in the Arts. " , 本文 算 
法 也 可 通过 依存 关系 链 模型 ,判别 “through” 和 “in” 和 
句子 中 核心 谓词 “ developed” 的 依存 关系 ,保证 识别 精 
准 。 

(2) 基 于 SAO 结构 的 实体 识别 过 程 中 ,增加 了 品 
音 处 理 , 有 效 提 升 了 识别 精度 。Ollie Reverb 等 测试 工 
具 的 错误 率 相对 较 高 , 表 2 中 基于 Ollie 算法 的 结果 只 
提取 了 置信 和 度 >0.5 的 结果 。 在 原始 结果 中 ,将 “Con- 


ventional online learning algorithms … " 1H. 3l] X 0. 436; 


( Conventional online; be going only once through; train- 
ing data) ,明显 是 不 对 的 。 动 名 词 “learning” 的 标识 没 
有 预 处 理 好 ,导致 名 词组 ”Conventional online learning 
algorithms” 被 分 割 |。 

(3) 基 于 动词 之 外 的 关联 介质 的 关系 识别 效果 较 
好 ,如 原 句 :“ We present a multilingual. Named Entity 


Recognition approach based on a robust and general set of 
features across languages and datasets. ”本 文 算法 与 O]- 
lie 算法 都 可 以 基于 “based”( 过 去 分 词 做 定语 修饰 
“approach”) ,识别 出 关系 (a multilingual Named Entity 


Recognition approach; be based on; a robust and general 


set of features) 。 本 文 主要 增加 了 现在 分 词 、 过 去 分 词 
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表 2 基于 Olie, Reverb 及 本 文 识别 算法 的 实体 识别 结 


文摘 编号 1 
文章 来 源 GAO W, WANG L, JIN R, et al. One-pass AUC optimization[ J]. Artificial intelligence, 2016, 236;1 -29. 
结果 格式 关系 置信 度 :(S; A; 0)[abbrj] 。 
J&F Ollie 工具 — 0.936; (learning algorithms; cannot be applied directly to; one-pass AUC optimization) [ enabler = because AUC is measured by a sum of losses 
的 重要 关系 defined over pairs of instances from different classes ] 
识别 结果 0.911: (AUC; is measured by; a sum of losses) 


0.831: (losses; be defined over; pairs of instances ) 


.818; ( AUC; is; an important performance measure that has been used in diverse tasks, such as:**, etc) 


.756: (We; develop; a regression-based algorithm which only needs to maintain ++ 


.739: (we; develop; two deterministic algorithms) | enabler = this work, we focus on … 


0 
0 
0.741: (we; focus on; one-pass AUC optimization ) 
0 
0 


. 706: (losses; be defined from; different classes ) 


training data) 


To efficiently handle high-dimensional data | 


基于 Reverb 工具 0.3818; (an important performance measure; has been used in; diverse tasks) 
I 重要 关系 0.5853; (algorithms; cannot be applied directly to; one-pass AUC optimization ) 
识别 结果 0.1938; (AUC; is; an important performance measure ) 
0.1415: (AUC; is measured by; a sum of losses ) 
0.0989; (one-pass AUC optimization; requires going through; training data) 


0.0713: (we; focus on; one-pass AUC optimization ) 


0.0544; (We; develop; a regression-based algorithm ) 


0.0176: ( we; develop; two deterministic algorithms ) 


0.0573; (a regression-based algorithm; only needs to maintain; the first and second-order statistics of training data) 


0.847826: ( AUC; be measured by; a sum of losses) 


0.484375; ( AUC; be; an important performance measure ) 


0.0: (We; develop; a regression-based algorithm ) 


0.0: (we; develop; two deterministic algorithms ) 


0.855556; (an important performance measure; be used in; diverse tasks) 


0.619565. (two deterministic algorithms; be developed to; high-dimensional data ) 


0.48; (Conventional online learning algorithms; not be applied to; one-pass AUC optimization ) 


WIE s 8] Ju 3 € I RU S cR 
些 美 系 连 接 词 与 辅助 词 (“to 
等 y 移 依存 关系 链 判别 模型 。 
0。 科研 命名 实体 识别 算法 错误 的 原因 分 析 

= 经 分 析 发 现 ,造成 本 文 识别 算法 的 错误 的 主要 原 
部 归纳 为 如 下 4 个 方面 : 
(1) 由 于 严重 依赖 于 词性 标注 和 依存 关系 解析 
器 ,因此 由 词性 标注 和 依存 关系 解析 错误 引起 的 识别 
错误 , 占 比较 大 , 约 46% ;如 :“The results display the po- 


tential of algorithm selection to achieve significant perform- 


别 模型 ,同时 增加 了 这 


» e for” ee with » 66 as » e in » 


ance improvements across a broad range of problems and 
algorithms" AJ F rp , f * display” ERIE X “(VP (NN dis- 
play)” 是 明显 的 错误 ;又 如 :“The optimization objective 


we study asks to minimize the expected total cost of reac- 


hing a state in the target set, while ensuring that the target 
set is reached almost surely. ”句子 中 ,将 “the target set is 
reached" by1E 2g * (S (NP (DT the) (NN target) ) (VP 
(VBD set)))))) (VP (VBZ is) (VP ( VBN 
reached)”, 其 中 “set” 被 标注 为 动词 是 明显 错误 。 前 一 
个 错误 可 后 期 修正 ,而 后 一 个 错误 修正 的 难度 很 大 , 需 


置信 和 度 计算 :0llie , Reverb 使 用 逻辑 回归 算法 ;本文 使 用 距离 相 1 


要 依赖 Standford nlp 工具 的 升级 了 。 
(2) 缺少 “异常 规则 限制 "模板 而 引起 的 识别 错误 
约 20% ;如 :“ Unfortunately, it is relatively easy to devel- 


op sophisticated models to help reduce the error of estima- 
tion by a few percent" 中 的 “to help reduce" WAJ zi EYF 
也 可 写成 “to reduce" , KEZAR X [H Mop DEZ A 
看 ,与 常见 不 定式 结构 略 有 不 同 ,需要 特殊 处 理 ; 又 如 : 

“During this research a prototype of a 3D cadastre was de- 


veloped. ”的 常 


au 


Jl, 26 35 2g " During this research, a proto- 
type of a 3D cadastre was developed. ”增加 一 个 “, "会 使 
句子 结构 更 清晰 ,也 需要 添加 特殊 的 处 理 规则 ,来 修正 
错误 。 

(3) 上 下 文 共 指 链 识别 错误 而 引起 的 识别 错误 约 
12% ;上 下 文 共 指 链 复 杂 , 共 指 链 判 别 模 型 没有 覆盖 到 
的 情况 将 出 现 错误 ,如 :“ 
and were compared with those obtained by a learning sys- 
”中 的 “those” 被 标注 
& ir] Jy “results” ; “We also take the 


Our results were satisfactory 


tem based on Self-Organizing Maps. 
为 限定 词 (DT) , 共 
opportunity to clarify some properties of the semidefinite 


relaxation, were it to be used for an actual nonconvex 
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”中 的 “it” 被 标注 为 人 称 指 代词 
( PRP) , 共 指 词 为 “properties”;“In the present study, a 


problem in this area. 


time series neuro-fuzzy model is proposed that is capable 

of exploiting the strengths of traditional time series approa- 

ches. ”中 的 “that” 被 标注 为 定语 从 名 连词 (SBAR IN) , 

共 指 词 为 “model” ,等 等 。 共 指 链 判别 模型 类 型 多 , 规 

则 多 。 该 错误 可 以 通过 共 指 依存 关系 链 判别 模型 的 丰 
一 步 优化 ,减少 错误 。 


(4) 其 他 错误 约 22% 。 如 特殊 的 复杂 句 型、 特殊 
的 复合 词 等 等 。 
4 结语 

实体 及 其 关系 抽取 在 许多 自然 语言 处 理 任 务 中 被 


证 天 是 有 用 的 。 本 文 针 对 长 句 的 噪音 问题 和 科研 
俊生 实体 抽取 的 特殊 性 ,结合 词性 标注 和 句法 依存 分 
要 ,和 利用 模式 匹配 提取 实体 关系 三 元 组 的 实体 抽取 
ee nn he 
进 mcn ips dcn UX 


(Ka 250 m 03 
上 ,明确 目标 文本 的 语义 结构 ,助力 实体 识别 精准 
性 的 提升 ;@ 通 过 核心 谓词 及 其 相关 辅助 词 的 依存 分 
析 > 对 依存 关系 链 建 模 ， 有 力 提升 对 科研 命名 实体 的 识 


别 和 和 抽取 效果 ;@ 以 科研 问题 及 其 相关 解决 方法 为 例 ， 
给 狠 了 科研 命名 实体 识 别 的 基本 思路 ,有 助 于 科研 问 
AERIS 现 。 


ma a EE 
完善 .基于 谓词 的 实体 抽取 模板 的 积累 完善 .以 名 词 / 
形容 词 等 为 关联 词 的 科研 命名 实体 识别 模型 的 补充 完 
善 .置信 度 计算 等 , 缘 是 下 一 步 继续 努力 的 方向 。 
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A Research Entity Recognition Algorithm Based on Dependency Parsing 
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Abstract: | Purpose/significance | To explore the recognition and extraction of research entities and their rela- 


ionships, improve their recognition effect in complex situations such as long sentences , and provide reference for fur- 


„ther application. | Method/ process | Based on the analysis of dependency syntactic features, a method for recogniz- 


and extracting research entity relations was proposed , which includes; POS tagging of the target text using Stand- 


ford Tagger tool; based on annotation results, the target text was divided into semantic segments of structure specifi- 


„Cation around the core predicate and SAO structure; through dependency parsing, we can find out the subject and ob- 


fei related to the core predicate and form a triple of entities, relationships and entities. | Result/conclusion | This 


method is compared with Ollie and Reverb mainstream algorithm. Experiments show that this method can effectively 


improve the accuracy of scientific entity recognition. 


Keywords: dependency parsing research entity 


entity recognition 


relation extraction 
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